#máquinas mealy

TempoBench: Evaluando el razonamiento causal temporal en LLMs

TempoBench revela: LLMs logran 96% en simulación pero <25% en causalidad mínima. Fine-tuning en este benchmark mejora el razonamiento causal.